构建强大的通用对象检测框架需要扩展到更大的标签空间和更大的培训数据集。但是,大规模获取数千个类别的注释是高昂的成本。我们提出了一种新颖的方法,该方法利用了最近的视觉和语言模型中可用的丰富语义来将对象定位和分类在未标记的图像中,从而有效地生成了伪标签以进行对象检测。从通用和类别的区域建议机制开始,我们使用视觉和语言模型将图像的每个区域分类为下游任务所需的任何对象类别。我们在两个特定的任务(开放式摄影检测检测)中演示了生成的伪标签的值,其中模型需要概括为看不见的对象类别以及半监督对象检测,其中可以使用其他未标记的图像来改善模型。我们的经验评估显示了伪标签在这两个任务中的有效性,我们在其中优于竞争基准并实现了开放式摄制对象检测的新颖最新。我们的代码可在https://github.com/xiaofeng94/vl-plm上找到。
translated by 谷歌翻译
有条件的生成对抗网络(CGANs)将标准无条件GaN框架扩展到学习样本的联合数据标签分布,并已建立为能够产生高保真图像的强大生成模型。这种模型的训练挑战在于将课程信息恰当地注入到其发电机和鉴别器中。对于鉴别器,可以通过(1)直接将标签作为输入或(2)涉及辅助分类损失的标签来实现类调节。在本文中,我们表明前者直接对齐类条件的假和实际数据分布$ p(\ text {image} | \ text {class})$({\ EM数据匹配}),而后者对齐数据调节类分布$ p(\ text {class} | \ text {image})$({\ EM标签匹配})。虽然类别可分离性并不直接转化为样本质量,并且如果分类本身是本质上困难的话,如果不同类别的特征映射到同一点,则不能为发电机提供有用的指导,因此可以为同一点映射并因此变得不可分割。通过这种直觉激励,我们提出了一种双重投影GaN(P2Gan)模型,它学会在{\ EM数据匹配}和{\ EM标签匹配}之间平衡。然后,我们提出了一种改进的Cgan模型,通过辅助分类,通过最大限度地减少$ F $ -divergence,通过辅助分类直接对准假和实际条件$ p(\ text {class} | \ text {image})$。高斯(MOG)数据集的合成混合物和各种现实世界数据集的实验,包括CIFAR100,ImageNet和Vggface2,证明了我们所提出的模型的功效。
translated by 谷歌翻译
Existing generalization bounds fail to explain crucial factors that drive generalization of modern neural networks. Since such bounds often hold uniformly over all parameters, they suffer from over-parametrization, and fail to account for the strong inductive bias of initialization and stochastic gradient descent. As an alternative, we propose a novel optimal transport interpretation of the generalization problem. This allows us to derive instance-dependent generalization bounds that depend on the local Lipschitz regularity of the earned prediction function in the data space. Therefore, our bounds are agnostic to the parametrization of the model and work well when the number of training samples is much smaller than the number of parameters. With small modifications, our approach yields accelerated rates for data on low-dimensional manifolds, and guarantees under distribution shifts. We empirically analyze our generalization bounds for neural networks, showing that the bound values are meaningful and capture the effect of popular regularization methods during training.
translated by 谷歌翻译
我们使用运输公制(Delon和Desolneux 2020)中的单变量高斯混合物中的任意度量空间$ \ MATHCAL {X} $研究数据表示。我们得出了由称为\ emph {Probabilistic Transfersers}的小神经网络实现的特征图的保证。我们的保证是记忆类型:我们证明了深度约为$ n \ log(n)$的概率变压器和大约$ n^2 $ can bi-h \'{o} lder嵌入任何$ n $ - 点数据集从低度量失真的$ \ Mathcal {x} $,从而避免了维数的诅咒。我们进一步得出了概率的bi-lipschitz保证,可以兑换失真量和随机选择的点与该失真的随机选择点的可能性。如果$ \ MATHCAL {X} $的几何形状足够规律,那么我们可以为数据集中的所有点获得更强的Bi-Lipschitz保证。作为应用程序,我们从Riemannian歧管,指标和某些类型的数据集中获得了神经嵌入保证金组合图。
translated by 谷歌翻译
新兴的非挥发记忆设备的备忘录在神经形态硬件设计中显示出有希望的潜力,尤其是在尖峰神经网络(SNN)硬件实现方面。基于Memristor的SNN已成功应用于各种应用程序,包括图像分类和模式识别。但是,在文本分类中实施基于备忘录的SNN仍在探索中。主要原因之一是,培训基于备忘录的SNN用于文本分类是由于缺乏有效的学习规则和不理想性的不存在。为了解决这些问题,并加快了在文本分类应用程序中探索基于备忘录的尖峰神经网络的研究,我们使用经验的Memristor模型开发了使用虚拟备忘录阵列的仿真框架。我们使用此框架来演示IMDB电影评论数据集中的情感分析任务。我们采用两种方法,通过将预训练的人工神经网络(ANN)转换为基于Memristor的SNN或2),通过直接训练基于Memristor的SNN,以获取训练有素的尖峰神经网络:1)通过将预训练的人工神经网络(ANN)转换为基于Memristor的SNN。这两种方法可以在两种情况下应用:离线分类和在线培训。鉴于等效ANN的基线训练精度为86.02%,我们通过将预训练的ANN转换为基于Memristor的SNN的ANN通过将预培训的ANN转换为基于Memristor的SNN的85.88%的分类准确性为85.88%。我们得出的结论是,可以在从ANN到SNN以及从非同步突触到数据驱动的Memristive突触的模拟中实现类似的分类精度。我们还研究了诸如Spike火车长度,读取噪声和重量更新停止条件之类的全局参数如何影响两种方法的神经网络。
translated by 谷歌翻译
备忘录显示了增强神经形态计算概念和AI硬件加速器的有希望的功能。在本文中,我们提出了一个用户友好的软件基础架构,该基础架构允许使用Memristor模型模拟各种神经形态架构。该工具赋予了将备忘录用于在线学习和在线分类任务的研究,从而预测了培训过程中的备忘录抵抗状态的变化。该工具的多功能性是通过功能来展示的,以供用户自定义所使用的Memristor和Neuronal模型中的参数以及所采用的学习规则。这进一步允许用户在广泛的参数中验证概念及其灵敏度。我们通过MNIST分类任务演示了该工具的使用。最后,我们展示了如何使用该工具通过与市售的特征工具进行适当的接口来模拟与实用的回忆设备中研究的概念。
translated by 谷歌翻译
我们研究了使用前馈神经网络实施其支持集的同时近似紧凑型积分功能的问题。我们的第一个主要结果将这个“结构化”近似问题转录为普遍性问题。我们通过在空间上构建通常的拓扑结构来做到这一点,$ l^1 _ {\ propatatorName {loc}}(\ m athbb {r}^d,\ m athbb {r}^d)locally-intellable-intellable-intellable-intellable-intellable-in紧凑型函数只能通过具有匹配的离散支持的函数来近似于$ l^1 $ norm。我们建立了Relu Feedforwward网络的普遍性,并在此精致拓扑结构中具有双线性池层。因此,我们发现具有双线性池的Relu FeedForward网络可以在实施其离散支持的同时近似紧凑的功能。我们在紧凑型Lipschitz函数的致密亚类中得出了通用近似定理的定量均匀版本。该定量结果表达了通过目标函数的规律性,其基本支持的度量和直径以及输入和输出空间的尺寸来构建此relu网络所需的双线性池层层的深度,宽度和数量。相反,我们表明多项式回归器和分析前馈网络在该空间中并非通用。
translated by 谷歌翻译
Several problems in stochastic analysis are defined through their geometry, and preserving that geometric structure is essential to generating meaningful predictions. Nevertheless, how to design principled deep learning (DL) models capable of encoding these geometric structures remains largely unknown. We address this open problem by introducing a universal causal geometric DL framework in which the user specifies a suitable pair of geometries $\mathscr{X}$ and $\mathscr{Y}$ and our framework returns a DL model capable of causally approximating any ``regular'' map sending time series in $\mathscr{X}^{\mathbb{Z}}$ to time series in $\mathscr{Y}^{\mathbb{Z}}$ while respecting their forward flow of information throughout time. Suitable geometries on $\mathscr{Y}$ include various (adapted) Wasserstein spaces arising in optimal stopping problems, a variety of statistical manifolds describing the conditional distribution of continuous-time finite state Markov chains, and all Fr\'echet spaces admitting a Schauder basis, e.g. as in classical finance. Suitable, $\mathscr{X}$ are any compact subset of any Euclidean space. Our results all quantitatively express the number of parameters needed for our DL model to achieve a given approximation error as a function of the target map's regularity and the geometric structure both of $\mathscr{X}$ and of $\mathscr{Y}$. Even when omitting any temporal structure, our universal approximation theorems are the first guarantees that H\"older functions, defined between such $\mathscr{X}$ and $\mathscr{Y}$ can be approximated by DL models.
translated by 谷歌翻译
在视频编辑的艺术中,声音真的是故事的一半。熟练的视频编辑器覆盖声音,例如效果和氛围,通过镜头将字符添加到对象或将查看器浸入空间内。然而,通过与专业视频编辑的形成性访谈,我们发现这一过程可能非常乏味且耗时。我们介绍Soundify,一个与视频匹配声音效果相匹配的系统。通过利用标签,工作室质量声音效果库和延伸剪辑,一个具有令人印象深刻的零点图像分类能力的神经网络,进入“零点探测器”,我们能够在没有资源密集的函授学习的情况下产生高质量的结果或音频生成。我们鼓励您看看或更好地看看,并在https://chuanenlin.com/soundify倾听结果。
translated by 谷歌翻译
我们引入了一个深度学习模型,该模型通常可以近似于常规条件分布(RCD)。所提出的模型分为三个阶段:首先从给定的度量空间$ \ mathcal {x} $到$ \ mathbb {r}^d $通过功能映射进行线性化输入,然后这些线性化的功能由深层馈电的神经网络处理,然后通过Bahdanau等人引入的注意机制的概率扩展,将网络的输出转换为$ 1 $ -WASSERSTEIN SPACE $ \ MATHCAL {P} _1(\ Mathbb {r}^d)$。 (2014)。我们发现,使用我们的框架构建的模型可以从$ \ mathbb {r}^d $到$ \ mathcal {p} _1(\ mathbb {r}^d)$均匀地在紧凑的集合上近似任何连续功能。当近似$ \ mathcal {p} _1(\ mathbb {r}^d)$ - 有价值的函数时,我们确定了两种避免维数的诅咒的方法。第一个策略描述了$ c(\ mathbb {r}^d,\ mathcal {p} _1(\ mathbb {r}^d))$中的函数,可以在$ \ mathbb {r}的任何紧凑子集上有效地近似地近似^D $。第二种方法描述了$ \ mathbb {r}^d $的紧凑子集,其中最多的$ c(\ mathbb {r}^d,\ mathcal {p} _1 _1(\ mathbb {r}^d))$可以有效地近似。结果经过实验验证。
translated by 谷歌翻译